這兩年生成式人工智慧(gnerative artifitial intelligence)的發展迅速,各種文生文、文生圖、文生音樂的應用,像雨後春筍一樣不斷冒出來。
目前的語言模型(language model)的運作方式,雖然依舊是處理「符號序列」的建模與預測,但已經脫離字符層面的「猜下一個字是什麼」,而是把文字符號轉換成一個抽象的、更接近於「辭義」的符號,繼而演變為對這個「意義序列」的建立模型,並且以此來預測「下一個意思是什麼」。
這個從「文字符號」轉換到「意義」的工具,專業術語叫做「詞嵌入」(word embedding),對現在這一波 AI 浪潮而言,也算是很重要的基石之一。
在這裡我無意去討論這個轉換的技術細節,只能簡單的陳述這屬於「表徵學習」(representation learning)的研究範疇。而其實很多人都想到了,相同的「轉換」概念,可以應用在文字以外的資料型態上,像是影像或是聲音訊號,把它們都轉換成某個「潛空間」(latent space)裡的向量。
於是,我們看到了像是 MidJourney、Stable Diffusion 這類「文生圖」(text to image),SUNO 這種「文生音樂」,或是 SORA 這種「文生影片」的服務。
這些服務的出現,其實背後隱含了一個意義:無論是文字、影像,或是聲音,在某個抽象的數學空間裡,它們的意義,或者說是表徵,是可以互通的。在 ChatGPT 發布的前一個禮拜,我恰好在某個研討會上提出了這個觀點,不過表徵學習在 LLM 興起之後,就不是那麼多人在關注了。
而前不久,一篇 MIT 的研究論文深入的討論了這個現象,作者們稱之為「柏拉圖式表徵」(Platonic Representation):柏拉圖實在論觀點裡的「理型」(ideal form)。作者們提出一個假設:當各種 AI 模型足夠大、資料足夠多的情況下,最後都會收歛到相同的一個潛空間。我個人雖然樂於支持同樣的觀點,但目前論文裡提出的證據似乎還不夠充分,也只能暫時以「假說」視之了。
沒有留言:
張貼留言